2025, 47(4): 1140-1149.
doi: 10.11999/JEIT240441
摘要:
针对不平衡数据过采样的过程中如何合成有效新样本的问题,该文提出一种基于最大安全近邻与局部密度的自适应过采样方法。该方法利用最大安全近邻和局部密度将少数类样本划分为安全样本、边界样本和离群点;在此基础上,通过组合加权设置样本的采样概率,使得靠近边界的“次边界样本”更容易被选择为根样本,并且自适应地调整K近邻的参数K,选择最优合成区域;针对离群点,采用超球面内的随机过采样策略,进一步增加少数类样本的多样性。最后,将所提方法与合成少数类过采样技术(SMOTE)、自适应合成采样方法(ADASYN)等6种过采样方法在13个公开数据集上进行实验分析,结果表明,所提方法相对于对比方法在F1分数(F1-score)指标上分别平均提高了6.9%, 8.8%, 8.2%, 5.8%, 7.2%和12.5%,在几何平均值(G-mean)指标上分别平均提高了3.0%, 2.5%, 3.0%, 3.2%, 5.3%和8.6%,证明所提方法可以有效解决不平衡数据分类问题。